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摘 要 : [目的 /意义 ] 在 科学 研究 中 ,从 不 同 来 源 的 科技 文献 中 识别 挖掘 科研 热点 对 于 开展 科研 工作 具有 指导 意义 。 旨 在 
通过 本 研究 提出 的 模型 方法 ,快速 准确 地 识别 药 含 在 多 源 文本 中 的 热点 主题 ,为 科研 创新 提供 支撑 服务 。[ 方 法 / 
过 程 ] 提 出 一 种 基于 LDA2vec 模型 的 多 源 文本 下 科研 热点 识别 的 方法 并 针对 科研 热点 识别 构建 模型 ,该 方法 融合 
LDA 主题 模型 对 隐 含 语义 挖掘 的 优势 和 Word2Vec 词 向 量 模型 对 于 上 下 文 关 系 把 握 的 优势 。 以 机 器 学 习 领 域 的 
科技 文献 为 例 , 利 用 模型 困惑 度 和 主题 一 致 性 两 个 指标 对 LDA2vec 的 在 本 领域 应 用 的 可 行 性 和 有 效 性 进行 验证 ， 
并 与 LDA 的 主题 提取 效果 进行 对 比 。[ 结果 /结论 ] 实 验 结果 表明 ,提出 的 方法 在 面 对 多 源 数 据 情况 下 ,进行 科研 
于 一 热点 识别 挖掘 是 可 行 的 , 且 在 一 定 程度 上 有 效果 的 提升 ,对 利用 单一 数据 源 进 行 主题 分 析 的 不 足 进 行 补 充 , 对 多 


之 数据 源 融 合 的 实践 应 用 进行 丰富 。 
入 : 主题 模型 LDA2vec 科研 热点 LDA Word2vec 
佘 : G251.2 
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多 源 数 据 融 合 
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言 息 爆炸 增长 的 态势 随 着 技术 和 时 代 背 景 的 发 
他 演 愈 烈 。 在 互联 网 上 进行 信息 检索 和 收集 时 ， 
除 也 有 效 信息 ,也 会 被 大 量 无 用 无 关 的 信息 干扰 。 
蕉 科研 工作 中 ,面临 的 情况 也 是 如 此 。 对 学 和 领域 
内 宣 有 的 研究 成 果 、 期 刊 论文 的 阅读 与 研究 ,是 科研 
区 者 在 短 时 间 了 解 把 握 学 科研 究 现状 .形成 对 学 
科 络 域 较为 全 面 认 知 的 一 个 主要 的 手段 占 。 因 此 ， 
要 能 够 及 时 把 握 研究 现状 、 跟 进 主要 的 研究 热点 与 
方面 ,热点 识别 与 挖掘 是 一 个 有 效 且 可 行 的 办 法 。 
但 目前 大 多 数 研究 中 对 于 科研 热点 的 识别 主要 针对 
期 刊 论文 ,单一 的 数据 源 得 出 的 分 析 结 果 必 不 能 全 
面 地 反映 学 科 领 域 的 整体 研究 现状 。 论 文 与 专利 分 
别 反映 的 是 基础 研究 和 技术 创新 成 果 的 进展 情况 ， 
虽然 两 者 在 文献 结构 及 文字 表达 上 存在 差异 性 , 属 
于 异 构 文献 ,但 在 内 容 上 可 以 实现 有 效 整合 形成 新 
的 技术 信息 , 与 单一 文献 源 相 比 ,在 信息 的 全 面 性 、 
科学 结构 划分 的 准确 性 上 更 有 优势 ,对 于 准确 定位 
领域 的 研究 重点 .热点 和 预测 领域 研究 趋势 都 大 有 
神 益 5 。 将 两 者 结合 起 来 进行 主题 热点 分 析 , 对 于 
理解 科学 和 技术 的 相互 影响 和 渗透 关系 、 技 术 机 会 
识别 ,潜在 商业 化 机 会 发 现 等 方面 有 着 重要 的 意义 。 


如 果 面 对 多 源 数据 ,不 同 源 的 文本 本 身 存在 异 构 
性 、 且 大 概率 不 会 存在 引用 关系 时 ,图 情 学 科 内 传统 
的 计量 分 析 方 法 、 基 于 关键 词 与 主题 词 等 的 分 析 方 
法 就 不 能 有 效 地 得 出 结果 。 为 了 尽量 避免 传统 方法 
带 来 的 较为 宏观 、 粗 燃 的 结果 ,解决 停留 在 文献 外 部 
寺 征 分 析 带 来 的 全 面 、 客 观 性 不 足 、 层 次 不 够 深入 的 
问题 ,现在 越 来 越 多 的 研究 中 采用 了 文本 挖掘 的 方 
法 。 基 于 对 文本 内 容 的 挖掘 ,能 够 更 加 有 效 地 对 文 
献 的 内 部 特征 做 到 客观 ,全面 的 识别 与 分 析 , 能 对 研 
究 的 粒度 与 层次 有 一 定 的 提升 。 面 对 识别 分 析 多 源 
文本 的 需求 ,基于 主题 模型 的 方法 不 仅 能 够 更 好 .更 
方便 地 解决 多 源 文 本 在 异 质 、 异 构 上 的 问题 ,更 多 的 
是 关注 科技 文献 的 文本 内 容 , 获 得 综合 性 的 分 析 判 
断 结果 ,增加 结果 的 置信 和 度 ; 也 能 更 深层 次 地 挖掘 文 
本 内 在 的 隐 含 性 知识 ,突破 词 频 分 析 等 外 部 特征 统 
计 ,利用 机 器 学 习 的 便利 性 ,在 更 短 的 时 间 内 理解 文 
献 要 表达 的 内 容 , 并 挖掘 出 更 多 ,更 丰富 的 语义 信息 
与 知识 推理 ,这 对 科研 工作 乃至 情报 分 析 研 究 工 作 ， 
都 有 着 更 高 更 优 的 全 局 性 价值 。 因 此 , 主题 模型 在 
科研 热点 识别 领域 的 应 用 与 优化 是 值得 探索 研 
究 的 。 
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1 相关 研究 


图 情 领域 的 科研 热点 发 现 ,依赖 于 对 不 同 实体 之 
间 隐 藏 关系 的 发 现 与 推理 ,通过 关系 发 现 隐形 知识 与 
前 沿 热点 等 ,是 对 科学 计量 学 情报 分 析 与 研究 等 的 重 
要 拓展 与 实践 ,也 一 直 是 学 科 内 重要 的 研究 领域 。 科 
研 工作 者 在 进行 研究 热点 的 识别 与 分 析 时 ,主要 使 用 
的 方法 可 以 归纳 为 基于 文献 外 部 特征 的 方法 和 基于 文 
献 内 部 特征 的 方法 。 

基于 文献 外 部 特征 的 方法 包括 引文 分 析 法 和 知识 
单元 分 析 法 。 引 文 分 析 是 以 文档 间 引 文 的 频率 和 模式 
为 研究 对 象 ,通过 引用 模式 一 一 从 一 个 文档 到 另 一 个 
交 档 的 链接 ,以 揭示 文档 的 属性 ””。 除 直接 引用 外 , 共 
个 怕 和 耦合 分 析 目前 在 研究 热点 识别 中 的 应 用 比较 
泛 , 且 在 原本 方法 的 基础 上 ,有 了 诸多 的 发 展 ,如 
全 的 文献 共 引 、 词 的 共 引 、 主 题 共 引 、 作 者 共 引 和 类 
的 区 引 等 ” ,耦合 中 的 文献 耦合 ,作者 耦合 ”关键 词 
耦合 .期 刊 耦合 ”等 。 知 识 单元 作为 构成 知识 集合 系 
绕 天 最 基本 单位 ,在 科学 计量 研究 界 ,可 以 狭义 地 理解 
六 能 再 分 解 的 词 ”。 因 此 ,笔者 将 基于 词 频 统计 的 
售 苇 方法 和 主题 词 共 现 的 分 析 方 法 归于 知识 单元 分 析 
法 汶 两 类 方法 的 主要 特征 就 是 基于 文献 的 最 基本 单 
元 条 汇 ) 的 外 部 特征 , 相 比 于 引文 分 析 ,更 能 从 微观 
忆 硬 揭示 学 科 结 构 内 的 实体 关系 ”。 知 识 单元 分 析 方 
法 竹 研 究 热点 发 现 领域 应 用 非常 广泛 ,但 也 有 部 分 学 
者 这 识 到 利用 被 引 频次 引文 关系 等 的 引文 分 析 并 不 
能 馏 直 接 展现 文献 的 研究 内 容 , 如 祝 清松 和 冷 伏 海 认 
为 基于 引文 内 容 分 析 的 主题 在 揭示 高 被 引文 献 的 被 引 
原因 上 效果 更 好 ,并 且 与 论文 的 整体 内 容 相符 ” 。 

基于 文献 内 部 特征 的 方法 可 以 理解 为 基于 文本 内 
容 挖掘 热点 的 方法 。 从 语义 层面 进行 挖 气 以 识别 文档 
集 的 主题 与 内 涵 , 能 够 在 一 定 程度 上 解决 基于 文本 外 
部 特征 分 析 而 出 现 无 意义 ,偏离 文本 原意 结果 的 问题 。 
如 杨 超 "" 通过 抽取 专利 文本 中 的 SAO 结构 构建 主题 


尖 


片 


题 间 的 贡献 差异 。 

整体 来 说 ,笔者 认为 目前 在 科研 热点 识别 领域 , 相 
对 成 熟 的 方法 体系 已 经 初步 形成 ,不 仅 包含 本 学 科 内 
如 文献 计量 领域 的 自 有 方法 ,也 包括 从 其 他 学 科 、 以 及 
新 兴 技 术 发 展 中 引入 的 方法 。 但 存在 的 主要 问题 包括 
3 点 :@ 语 义理 解 不 足 问题 ,以 传统 科学 计量 为 基础 的 
方法 大 部 分 的 核心 思想 都 是 对 文献 中 的 主题 词 进行 统 
计 ( 如 词 频 、 共 现 频 率 、 共 引 次 数 等 ) ,但 对 于 文本 和 语 
义 层面 却 没 有 深入 研究 ( 如 同义词 .近义词 不同 词汇 
习惯 等 ) ;@) 研 究 数据 源 单 一 问题 ,以 某 一 种 数据 源 来 
识别 研究 前 沿 具有 局 限 性 ,并 不 能 全 面 代表 所 有 科学 
研究 前 沿 信 息 ;@ 时 灌 性 问题 ,学 术 论 文 从 撰写 \ 审 稿 
到 产 出 并 形成 引用 关系 的 过 程 一 般 情况 下 十 分 漫长 ， 
所 以 这 个 过 程 本 身 就 会 使 得 论文 数据 在 时 间 上 存在 灌 
后 性 。 
1.2 ”主题 模型 研究 现状 

主题 由 一 个 核心 事件 或 活动 以 及 所 有 与 之 直接 相 
关 的 事件 和 活动 组 成 ”  。 利 用 主题 模型 可 以 对 文献 
进行 内 容 分 析 、 提 取 主 题 以 获得 领域 内 的 热点 知识 和 
发 展 趋势 。 

从 文献 调研 的 结果 来 看 ,由 于 LDA 模型 本 身 是 
应 用 范围 最 为 广泛 又 较为 成 功 的 模型 ,日 其 对 于 大 
规模 文档 集 隐 含 语义 的 识别 效果 较 好 , 而 科研 热点 
的 核心 就 是 从 大 规模 的 学 科 领 域 科 技 文献 中 挖 
掘 推理 隐 含 知识 ,所 以 应 用 于 科研 热点 识别 的 主题 
模型 主要 以 LDA 模型 为 基础 。 当 然 , 针 对 LDA 模 
型 实际 应 用 于 科研 热点 及 主题 识别 时 的 一 些 问 题 ， 
内 的 诸多 学 者 也 进行 了 优化 或 将 LDA 与 其 他 模型 
相 结 合 以 达到 研究 目的 与 效果 :除了 LDA 模型 和 pL- 
DA 模型 之 外 ,还 包括 了 将 LDA 与 本 体 “ SNA 社会 
网 络 分 析 法 “1 、 引 文 分 析 法 '" 、 共 词法 、 标 
签 " 、 聚 类 算法 ”及 相关 特殊 指标 相 结合 ”的 优 
化 方法 。 

所 以 从 当前 国内 研究 情况 来 看 ,整体 来 说 将 主题 
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模型 ,在 识别 专利 文献 主题 时 解决 了 主题 语义 不 清 、 问 
题解 决 方案 识别 不 对 应 的 问题 ; 阮 光 册 '" 采用 
Doc2Vec 方法 对 文本 内 容 进行 向 量 计算 与 相似 度 计算 
以 生成 热点 选 题 论文 集 ,在 此 基础 上 再 利用 主题 模型 
和 聚 类 算法 进行 主题 识别 与 挖 气 , 在 语义 特征 的 识别 
上 获得 了 更 优 的 效果 ; 赵 一 方针 对 政策 文本 引入 段 
落 信息 增益 ,改变 了 现 有 主题 模型 无 法 有 效 分 配 特定 
特征 词 对 相似 政策 主题 贡献 度 的 问题 ,平衡 了 不 同 主 


模型 应 用 于 科研 热点 识别 的 方向 比较 单一 ,大 多 数 是 
在 LDA 模型 的 基础 上 进行 相关 的 改进 ,对 于 一 些 新 模 
型 新 方法 的 可 行 性 与 有 效 性 的 探索 却 比 较 少 。 反 观 
如 与 情 热 点 识别 、 微 博 热 点 识别 等 其 他 领域 ,探索 的 方 
法 就 较为 多 样 化 .丰富 化 。 而 很 多 的 新 方法 在 对 文本 
语义 的 理解 和 挖 据 上 或 许 有 着 更 好 的 效率 和 更 优 的 效 


果 , 所 以 ,我 们 进行 科研 热点 识别 与 挖 据 时 ,这 些 都 值 
得 探析 。 
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2 基于 LDA2vec 的 科研 热点 识别 方法 


2.1 模型 基础 
2.1.1 LDA 主题 模型 


更 加 关注 上 下 文 逻辑 。 

Word2vec 主要 有 两 个 模型 :一 是 在 词 袋 结构 
(CBOW ) 中 ,基于 一 组 上 下 文 词 来 预测 枢 轴 词 ; 二 是 在 
Skip-gram 架构 中 , 枢 轴 词 用 于 预测 周围 的 上 下 文 单词 


主题 模型 是 一 种 非 监督 的 机 器 学 习 方 法 , 它 不 同 
于 图 情 学 科 内 传统 的 基于 文献 外 部 特征 的 方法 ,传统 
的 方法 只 关注 文献 之 间 的 表层 关系 或 词语 频次 等 ,而 
主题 模型 可 以 将 词汇 与 文档 之 间 深 层次 的 语义 关系 抽 
取出 来 ,也 就 是 我 们 所 说 的 “潜在 主题 信息 ", 有 效 地 
提取 大 规模 文档 集 和 语料库 中 的 隐 含 主题 ,目前 已 在 
文本 情感 分 类 、 信 息 抽取 等 领域 已 经 广泛 应 用 。 这 为 
深入 的 进行 文本 分 析 、 科 研 主题 控 据 提供 了 很 好 的 契 
机 ,有 着 广阔 的 应 用 前 景 和 现实 意义 。 从 1998 年 最 早 
的 圭 题 模型 LSI 提出 以 来 ” ,在 此 基础 上 至 今 有 了 很 
多 优化 的 模型 算法 ,通过 对 大 量 文档 ,句子 .单词 的 计 
第 瑟 学 习 , 能 够 对 文档 集合 中 隐 含 的 语义 结构 进行 控 
3 


马 主题 模型 的 核心 是 为 了 文本 降 维 ,文本 降 维 技术 
由 于-IDF 矩阵 ,一 元 混合 模型 pLSA 模型 等 发 展 到 最 
经 机 的 LDA 模型 ,可 以 将 其 理解 为 对 pLSA 模型 进行 
焉 Wf 斯 化 , 即 LDA 是 由 单词 .主题 和 文档 组 成 的 一 个 
< 局 贝 叶 斯 网 络 模型 。 核 心思 想 就 是 :每 个 文档 可 以 
被 视 为 各 种 主题 的 混合 ,其 中 每 个 文档 被 认为 具有 通 
过 DA 分 配给 它 的 一 组 主题 。LDA 通过 计算 P( 单 记 
1 广 题 ) 和 P( 主题 | 文档 ) 来 获得 单词 的 分 群 。 其 中 最 
关键 的 两 个 步 又 是 :DD 该 词 在 所 有 文档 的 范围 内 归属 
于 志 e 个 主题 ;@ 该 词 所 在 的 文档 归属 于 哪个 主题 。 总 
体 霜 说 ,笔者 认为 LDA 有 两 大 好 处 :中 能够 处 理 多 义 
词 或 者 同一 个 词 的 不 同 语 境 。 因 为 LDA 进行 主题 划 
分 时 ,又 考虑 到 整个 文档 的 主题 倾向 。@@ 可 以 对 每 个 
主题 ,都 找 出 一 些 词 来 描述 它 。 这 对 于 更 全 面 、 深 刻 地 
理解 某 一 主题 的 含义 有 更 好 的 指导 作用 ,这 在 科学 研 
究 中 也 是 大 有 神 益 的 。 但 LDA 最 大 的 劣势 在 于 其 是 
一 种 典型 的 词 袋 模型 , 它 认为 一 篇 文档 是 由 一 组 词组 
成 的 集合 ,没有 考虑 到 词 与 词 之 间 的 顺序 和 先后 关系 。 
2.1.2 Word2vec 词 向 量 模 型 

尽管 在 LDA 中 能 大 致 对 应 于 主题 ,但 对 于 词 向 量 
通常 不 是 这 种 情况 。 在 主题 模型 为 每 个 词语 分 配 到 的 
是 一 个 和 上 下 文 语 境 , 语 义 无 关 的 向 量 ,但 是 要 深度 理 
解 文本 的 语义 与 内 容 , 上 下 文 语 境 却 是 需要 着 重 考量 
的 。LDA 模型 未 能 将 词 与 词 之 间 的 关系 纳入 考量 与 计 
算 , 而 词 向 量 模型 的 一 大 特点 正 是 对 词汇 之 间 的 关系 
进行 描述 。 词 向 量 和 词 的 内 容 无 关 , 而 是 和 语义 相关 ， 


图 描绘 了 两 种 不 同 的 Word2vec 架构 。 也 就 是 说 ， 
CBOW 中 输入 的 是 词 w 周围 n 个 词语 的 向 量 之 和 , 输 
出 词 w 本 吴 的 向 量 ;Skip-gram 中 输入 词 w 本 喘 的 向 
量 ,输出 词 w 周围 n 个 词语 的 向 量 。 

结合 模型 本 身 来 看 ,LDA 模型 的 基础 是 隐 含 主题 ， 
Word2vec 模型 的 基础 是 上 下 文 。 即 LDA 关注 的 核心 
是 文档 和 词 的 共 现 ,而 Word2vec 关注 的 核心 是 上 下 文 
和 词 的 共 现 。 两 者 对 于 语义 分 析 来 说 是 优 劣 互补 的 ， 
也 是 本 研究 模型 构建 的 基础 。 
2.2 模型 构建 

C. E，Moody 等 中 提出 的 LDA2vec 模型 是 一 种 与 
Dirichlet 分 布 的 潜在 文档 级 主题 问 量 混合 共同 学 习 密 
集 单 词 向 量 的 模型 ,同时 吸取 了 LDA 模型 对 于 主题 把 
握 的 优势 和 Word2vec 模型 对 于 词语 之 间 关 系 把 握 的 
优势 ,将 两 者 融合 ,在 Word2vec 的 skip-gram 模型 基础 
上 建 模 ,由 本 来 的 输入 某 个 词语 以 预测 上 下 文 词语 转 
变 为 使 用 上 下 文 向 量 来 预测 上 下 文 词语 。 即 可 以 理解 
为 在 原始 的 Skip-gram 方法 中 ,训练 模型 以 基于 枢 轴 词 
来 预测 上 下 文 词 。 在 LDA2vec 中 ,添加 了 枢 轴 词 向 量 
和 文档 向 量 以 获得 上 下 文 向 量 , 然 后 使 用 该 上 下 文 向 
量 来 预测 上 下 文 单词 。 具 体 来 说 ,扩展 了 Skip-gram 模 
型 ,融合 主题 和 文档 问 量 ,并 结合 了 词 租 入 和 主题 模型 
的 想法 。 受 Latent Dirichlet Allocation( LDA ) 的 启发 ,将 
模型 扩展 为 同时 学 习 词 .文档 和 主题 向 量 。 

所 以 笔者 参考 C. 了 .Moody 等 提出 的 LDA2vec 模 
型 ,希望 能 通过 更 多 的 数据 和 更 多 的 特征 来 对 周边 词 
汇 进 行 更 高 效 的 预测 ,以 更 有 效 地 提取 隐 含 在 文献 内 
部 的 主题 。 笔 者 基于 两 者 的 混合 模型 LTDA2vec ,借鉴 
其 对 LDA 模型 全 局 性 和 Word2vec 模型 局 部 关系 进行 
整合 利用 的 思路 ,探讨 将 稀 玖 文档 表示 与 密集 词 和 主 
题 向 量 混合 的 热点 主题 识别 方法 ,构建 了 如 图 1 所 示 
的 模型 。 


山 | 


习 ”, 则 可 能 的 上 下 文 词 可 能 是 “计算 机 ”人 工 智 能 ” 
“算法 ”。 如 果 没 有 任何 全 局 性 (文档 相关 ) 的 信息 ,这 
些 预 测 结果 是 具有 一 定 的 合理 性 的 。 但 通过 在 
LDA2vec 模型 中 提供 附加 的 上 下 文 向 量 ,也 许可 以 更 
好 地 对 上 下 文 词语 进行 预测 。 

C. E.， Moody 等 对 LDA2vec 模型 的 实现 算法 对 设 
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表 圳 鹿 ， 邵 波 . 多 源 数据 环境 下 科研 热点 识别 方法 研究 [可 .图书 情 报 工作 ,2020,64(5) :78 -88. 


清洗 后 数据 分 别 基 于 LDA 和 Word2vec 训练 
由 


a 二 文档 j 属于 | 
主题 k 的 概率 | 


4 一 Lda 模型 


相 加 、 输 入 LDA2vec 训练 得 出 主题 


二 
> ee 
(© 
热点 主题 及 特征 词 
@ 国 1 基于 LDA2vee 的 科研 热点 识别 模型 结构 及 流程 


(9 

每 GPU 要 求 过 高 ,适用 于 超大 规模 数据 ,效率 较 低 。 
Cgithub 上 基于 其 模型 的 实验 来 看 ,实验 结果 与 传统 
5 多 相 比 差距 并 不 明显 。 所 以 在 本 研究 的 实验 中 , 考 
感到 热点 识别 的 需要 以 及 原始 数据 的 规模 并 不 大 , 笔 

于 模型 实现 进行 了 一 些 改 进 , 先 利用 成 熟 的 

W 辜 2vec 模型 和 LDA 模型 对 语料库 进行 训练 ,然后 将 
果 作 为 输入 ,利用 LDA2vec 模型 中 核心 算法 进行 
人 计算 ,以 期 得 到 更 优 结果 的 同时 ,提高 效率 。 
-三 本 模型 通过 处 理 文档 并 将 文档 向 量 分 解 为 文档 权 
后 量 和 主题 和 矩阵。 文档 权重 向 量 表示 不 同 主题 的 百 
分 比 , 而 主题 矩阵 由 不 同 的 主题 向 量 组 成 。 因 此 ,通过 
组 合 文档 中 出 现 的 不 同 主题 向 量 来 构造 上 下 文 向 量 。 
即 首先 基于 Skip-gram 模型 ,提取 在 扫描 语料库 的 移动 
窗口 中 出 现 的 枢 轴 和 目标 词 对 。 对 于 每 个 词 对 , 枢 轴 
词 用 于 预测 附近 的 目标 词 。 其 次 对 于 语料库 中 的 每 个 
文档 随机 初始 化 潜在 向 量 。 文 档 权 重 是 softmax 变换 
的 权重 以 产生 文档 比例 。 结 果 是 一 个 比例 向 量 ,总 和 
为 100% ,表示 单个 文档 的 主题 比例 。 例 如 ,一 篇 文档 
可 能 包含 了 3 个 主题 :主题 0 为 41% ,主题 1 为 26% ， 
主题 2 为 34% 。 

每 个 主题 都 有 一 个 分 布 式 表示 ,与 单词 向 量 位 于 
同一 空间 。 虽 然 每 个 主题 在 字面 上 并 不 是 语料库 中 存 
在 的 标记 ,但 它 与 其 他 标记 类 似 。 每 个 文档 向 量 是 主 
题 向 量 的 加 权 和 。 因 此 ,这 种 分 析 可 以 产生 可 解释 的 
主题 ,帮助 人 们 直接 理解 文档 的 主要 内 容 , 不 再 需要 详 


[ill 


NS 


AS 


细 阅 读 。 
2.3 ”模型 解析 

本 研究 构建 的 整个 模型 中 核心 算法 部 分 主要 包括 
两 部 分 的 计算 与 训练 :一 部 分 用 于 训练 得 到 某 篇 文章 
不 同 主题 所 占 比重 的 信息 ; 另 一 部 分 基于 Skip-gram 的 
方法 ,在 枢 轴 词 和 目标 词 确定 的 情况 下 ,学习 上 下 文 的 
向 量 表示 。 
2.3.1 词 向 量 表 示 

词 向 量 学 习 表 面 上 包括 两 部 分 ,首先 根据 Skip- 
gram 得 到 词 向 量 表示 ,之 后 引入 上 下 文 向 量 , 采 用 
Skip-gram 负 采 样 的 思想 学 习 目 标 词 的 词 向 量 表示 。 
但 第 二 部 分 的 词 向 量 在 本 模型 中 是 不 改变 的 ,实际 上 
是 希望 借鉴 词 向 量 的 训练 方法 最 小 化 ( 枢 轴 词 + 文档 ， 
目标 词 ) 对 与 ( 枢 轴 词 + 文档 ,随机 词 ) 的 损失 函数 从 
而 学 习 内 容 的 向 量 表示 。 

同时 与 之 前 的 Word2vec 中 的 方法 一 致 , 负 采 样 时 
根据 词 频 决定 采样 的 可 能 性 大 小 。 某 个 单词 采样 的 可 
能 性 大 小 如 下 ,参数 取 3/4: 


[ counter( w) | Rs 下 
lenlw) = > ,pl counter(u) 下 SD) 


与 Word2vec 模型 一 样 , 当 输 入 词 和 目标 词 对 (j， 
i) 在 跨越 语料库 的 移动 窗口 中 共同 出 现时 被 提取 。 对 
于 每 个 (输入 词 -目标 词 ) 词 对 ,输入 词 用 于 预测 其 附 
近 的 目标 词 。 每 个 单词 用 固定 长 度 密集 的 分 布 式 表示 
向 量 表示 ,但 与 Word2vec 模型 的 不 同 在 于 ,在 输入 和 
目标 表示 中 使 用 相同 的 单词 向 量 。 绘 制 词语 的 分 布 是 
,其 中 表示 由 总 体 语料库 大 小 归 一 化 的 整体 词 频 。 
除非 男 有 说 明 ,否则 采样 功率 有 设置 为 3/4, 负 采样 数 
固定 为 n=15。 与 unigram 分 布 相 比 ,这 样 的 选择 更 强 
调 了 为 负 样 本 选择 不 常用 的 单词 。 与 优化 softmax 交 
叉 焙 相反 ,负面 采样 通过 从 语料库 中 每 个 边缘 的 边缘 
流行 度 中 抽取 负 样 本 来 研究 以 上 下 文 为 条 件 的 学 习 单 
词 向 量 。 
2.3.2 文档 向 量 表 示 

这 部 分 工作 的 意义 在 于 ,通过 得 到 对 应 文档 的 文 
档 向 量 表示 之 后 ,和 相应 的 词 向 量 相 加 ,作为 上 下 文 向 
量 的 初始 值 。 

某 个 单词 j 对 应 上 下 文 的 初始 值 设 定 如 下 : 

ew +d 公式 (2) 

其 中 , 忆 表 示 词 语 j 的 词 向 量 ,由 前 述 步 骤 获 得 ;人 
表示 对 于 词 而 言 ,所 有 词 - 上 下 文 对 的 向 量 表示 。 其 
具体 公式 表示 如 下 : 


> > 
d=ao totan tit 


公式 (3) 
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了 天书 等 表示 对 应 主题 的 向 量 表示 。 基 于 LDA 模型 
得 到 主题 矩阵 后 ,经 过 和 矩阵 分 解 方法 得 到 的 与 词 向 量 


将 文档 中 没有 具体 实际 含义 的 词 以 及 标点 符号 等 作为 
停 用 词 进行 过 滤 处 理 。 文 本 预 处 理 是 一 个 需要 重复 进 


长 度 一 致 的 结果 。ow, 表 示 对 于 文档 j 而 言 ,属于 主题 k 
的 概率 , 取 值 在 0 到 1 之 间 。 

需要 指出 的 是 ,主题 向 量 表示 对 于 所 有 文档 是 通 
用 的 ,但 不 同文 档 里 面具 体 的 主题 分 布 就 是 通过 a 来 
决定 的 。 为 了 保证 w, 的 可 解释 性 ,这 里 采用 了 softmax 
的 方式 保证 其 和 为 1 且 非 负 。 同 时 在 得 到 之 后 ,基于 
词 向 量 与 该 主题 的 相似 程度 可 以 得 到 相关 主题 词汇 。 

由 的 具体 计算 与 天 密切 相关 ,具体 计算 公式 如 
下 : 


IL =AS, (a -1)logp; 公式 (4) 
当 a<1l 时 ,主题 分 布 倾向 于 稀 跑 。 反 之 ,主题 分 
h。 为 了 增强 模型 的 可 解释 性 ,这 里 取 a 
,n 表示 topic 的 数目 。 同 时 , 当 和 = 200 时 ,模型 
的 表现 效果 较 好 。 


3 实验 结果 及 评估 一 一 以 机 器 学 习 领域 
研 损 为 例 


9 数据 来 源 与 预 处 理 

人 首先 ,选择 一 个 学 科 发 展 相对 成 熟 .边界 比较 清晰 
皇 效 科 为 分 析 对 象 ,笔者 选择 机 器 学 习 领 域 的 研究 成 
果 为 数据 对 象 。 于 2019 年 2 月 1 日 在 CNKI 期 刊 数 据 
应 秋 专利 数据 库 中 分 别 检索 发 表 的 全 部 中 文 文献 。 根 
据 卉 次 实验 的 要 求 , 查 找 机 器 学 习 学 科 领 域 的 相关 科 
技 交 献 (包括 学 术 论 文 和 专利 文献 ) 。 设 定 检索 表达 
式 汐 SU =“ 机 器 学 习 ” ,并 限定 文献 出 版 时 间 与 专利 公 
开 日 均 为 2004 年 至 2019 年 的 15 年 期 间 , 于 2019 年 2 
月 1 日 的 检索 结果 为 : 共 5 869 篇 期 刊 文 献 和 3 865 篇 
专利 文献 。 对 原始 数据 进行 筛选 ,剔除 与 学 术 研究 无 
关 的 内 容 和 重复 项 后 ,汇总 的 数据 共 8 928 条 ,其 中 包 
括 5 063 条 期 刊 论文 数据 和 3 865 条 专利 文献 数据 。 
在 CNKI 数据 库 中 ,对 于 每 篇 期 刊 文献 和 专利 文献 都 
有 题名 和 摘要 的 标 引 , 这 对 于 我 们 做 多 源 文本 的 融合 
提供 了 支持 。 将 期 刊 论文 数据 和 专利 文献 数据 按照 是 
名 项 和 摘要 项 汇聚 在 一 起 ,形成 初步 原始 数据 集 。 

上 述 步骤 后 得 到 的 这 些 内 容 是 直接 从 数据 库 抓 取 
的 .未 经 处 理 的 原始 数据 ,需要 通过 分 词 和 去 除 停 用 
词 ,将 原始 的 数据 处 理 成 便于 后 续 模型 输入 、 可 供 计算 
机 识别 理解 的 内 容 。 笔 者 将 采用 jieba 作为 分 词 及 去 


行 的 过 程 , 对 分 词 自 定义 字典 进行 扩充 ,进行 特征 选择 
直到 处 理 结果 能 满足 模型 输入 的 要 求 。 
3.2 基于 LDA2Vec 的 主题 提取 

LDA2vec 模型 的 提出 者 C. E. Moody 在 github 上 
开源 了 模型 的 核心 库 , 但 是 从 基于 其 模型 的 实验 来 看 ， 
首先 是 对 GPU 要 求 过 高 ,其 次 是 实验 结果 与 传统 LDA 
相 比 差距 并 不 明显 。 所 以 在 本 研究 的 实验 中 ,对 模型 
实现 进行 了 一 些 改进 , 先 利用 成 熟 的 Word2vec 模型 和 
LDA 模型 对 语料库 进行 训练 ,然后 利用 LDA2vec 模型 
中 核心 算法 进行 迭代 计算 ,以 期 得 到 更 优 结果 的 同时 ， 


3.2.1 词 向 量 表示 


笔者 将 前 述 预 处 理 步骤 后 获得 的 论文 和 专利 文本 
作为 语料库 ,利用 Word2vec 来 生成 论文 与 专利 文本 融 
合 文档 集中 词语 的 词 向 量 , 作 为 后 续 模 型 的 输入 。 

Python 的 Gensim 工具 包 对 Word2vec 模型 进行 了 
封装 ,本 实验 基于 Python 的 gensim 包 中 gensim. mod- 
els. word2vec 类 实现 对 于 Word2vec 中 Skip-gram 模型 
词 向 量 的 训练 。 根 据 本 研究 需求 ,对 于 Word2vec 模型 
中 相关 重要 参数 设置 如 表 1 所 示 

表 1 word2vec 模型 参数 设置 

参数 值 原因 与 用 途 


sg 1 1 表示 设置 算法 为 skip-gram 
size 100 词 向 量 维 数 ,默认 为 100 便于 后 续 计 算 
window 5 训练 窗口 大 小 ,一 般 为 5 
min_count 5 字典 截断 最 低频 次 ,默认 为 5 
sample le-3 ”采样 闵 值 , 词 频 越 高 越 易 被 采样 ,默认 值 le -3 
hs 0 不 使 用 HS 方法 ,采用 负 采 样 方法 
negative 3 针对 负 采 样 noise words 个 数 ,一 般 为 3 


3.2.2 文档 向 量 表示 

LDA2vec 模型 的 另 一 部 分 输入 来 自 于 LDA 模型 
的 输出 结果 , 即 主题 - 词 分 布 矩 阵 和 文档 权重 。 所 以 
在 本 研究 中 ,同样 以 预 处 理 后 的 语料库 作为 数据 集 输 
人 LDA 模型 进行 训练 。Python 中 包括 gensim 、sklearmn 
等 众多 包 都 有 对 于 LDA 模型 的 封装 ,考虑 到 后 续 实 验 
中 的 困惑 度 评价 指标 计算 ,笔者 选择 基于 sklearm 来 实 
现 LDA 模型 的 训练 。 

主题 数目 的 设置 对 于 LDA 模型 的 输出 结果 有 着 
很 大 的 影响 。 如 果 主 题 数 目 设置 过 多 ,会 导致 结果 不 


停 用 词 的 工具 。jieba 分 词 工具 可 以 除了 进行 分 词 以 
外 ,也 支持 对 停 用 词 的 过 小 去 除 , 本 次 实验 利用 jieba 


显著 ;如 果 主 题 数 目 设置 过 少 , 则 会 出 现 部 分 词汇 对 应 
多 个 主题 的 结果 。 而 困惑 度 (perplexity ) 通 常 作 为 主题 
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表 惠 肘 ， 邵 波 . 多 源 数 据 环境 下 科研 热点 识别 方法 研究 [可 . 图 书 情报 工作 ,2020,64(5) :78 -88. 


模型 的 一 个 主要 评价 指标 ,描述 了 主题 划分 的 确定 性 
如 何 , 能 在 一 定 程度 上 反应 模型 的 优 劣 。 虽 然 主 题 数 
目的 选择 会 影响 perplexity 值 的 计算 ,perplexity 值 只 能 
作为 一 个 参考 ,主题 数目 的 确定 还 需要 考虑 主观 需求 。 
随 着 主题 个 数 选 定 的 不 同 ,模型 的 困惑 度 是 不 断 变 化 
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80 000 
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60 000 
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6 下 站 


™ 

> 
(© 
Dm 


二 基于 LDA2vec 提取 主题 


的 ,具体 情况 如 图 2 所 示 。 综 合 考量 困惑 度 值 和 本 研 
究 主观 需求 ,将 主题 数量 K 设置 为 15; 超 参数 取 默 认 
值 进行 LDA 模型 的 训练 以 获取 主题 - 词 矩 了 泗 和 文档 
权重 。 


4 6 51 56 人 外 的 6 有 中 只 锯 


# of topics 


2 LDA 模型 困惑 度 值 随 主题 数目 变 


提取 到 的 结果 如 图 3 所 示 。 按 照 主题 出 现 概 率 从 


LDA2vec 模型 的 输入 包括 3.2. 1 中 得 到 的 词 向 量 
和 全 2.2 中 计算 得 到 的 文档 向 量 ,将 其 输入 LDA2vec 
模型 融合 训练 。 


write p(z): ,../output/model/k15.pz 
write p(wlz); ../output/model/k15.pw_z 


write p(2): ,../output/model/k15.pz 
write p(wlz): ,./output/model/k15,.pw_z 
procedure time ; 4589.50429 
==—======== Topic Display 


202 


K:15, n(W):4176 
p(z) Top words 
0.242885 
8.148727 
8.107437 
8.980647 
0.078303 
8.070740 
8.051425 
8.039415 
0.038758 
8.033989 
8.933200 
0.030564 
8.924615 
9.919302 
8.000001 


chinaXiv 


TS finished with exit code 0 


高 至 低 排序 , 共 15 个 主题 。 选 取 显 示 每 个 主题 下 
top10 概率 的 主题 词 ,以 更 清晰 、 准 确 的 理解 每 个 主题 
的 隐 含 语义 。 


学 习 :8.078561 机 器 :9,.943403 研究 :8.936719 数据 :9.028418 技术 :9.027468 方法 :9.823497 分 析 :9.022152 算法 ;9.021871 领域 :8.015923 发 展 :0.915687 
模型 :0.074640 预 则 :9.952726 算法 :0,038328 学 习 :0,.631373 机 器 :9.029169 方法 :9.015522 分 类 :8.0914320 数据 :0.013324 特征 :9.913922 回归 :9.912882 
算法 :6.034364 特征 :9.932726 方法 :8.931715 分 类 :9.825391 学 习 :8.024914 检测 :9.022468 数据 :0.921646 机 迪 :9.916591 样本 :9.014622 提出 :9.913918 

人 工 智能 :9.053235 发 展 :8.0425866 技术 :0.041942 智能 :9.025238 系统 :9,021223 学 习 :0,016912 分 析 :9,916295 领域 :0.015744 机 器 :0.014012 计算 :9.011346 
人 工 智能 :9.035133 发 展 :9,026566 技术 :9.021846 数据 :9,919546 研究 :9.009859 经 济 :0.009542 决策 ;8,989566 风险 :9,8009376 规划 :9.009003 城市 :0.968574 
数据 :9.059370 系统 :9.927379 分 析 :0,019251 用 户 :9.018596 技术 :6.014585 预警 :9.012679 机 器 :0.012328 网 络 :0.012191 平台 :9.011978 故障 :0.011536 
诊断 :0.031890 模型 :0,921795 临床 :9,619723 患者 :9.019557 预测 :9.019391 学 习 :0.814683 方法 ;0.013525 分 析 :6.013235 机 器 :6.013028 影像 ;9.912986 
预测 :0,021127 变量 ;0,020460 算法 :0.018964 土壤 :0.017390 研究 :0.016002 机 器 :9.914027 模型 :0.914006 利用 :9.011571 信息 ;9.011331 学 习 :0.910957 
样本 :8.029628 对 抗 :0.926265 分 类 :0,922468 研究 :9,022387 特征 :9.019187 方法 ;9.015146 图 像 :0,013383 影像 ;6.013275 学 习 :6,013031 膛 感 :6.913031 
数据 :6.031286 课程 :0.922694 教学 :0,022264 学 习 :0.020300 学 生 :8.019582 专业 :9.616618 企业 :0.916463 创新 :9.014968 培养 :6.014715 人 工 智能 :9.914408 
系统 :8,025199 测试 :9,920871 算法 :0,020369 船舶 ;0.019993 环境 :9,018864 机 器 :9.015791 路 径 :0,014473 学 习 :9.013846 跟踪 ;0.012560 运行 :9.8009989 
网 络 :6.075796 神经 :9,937652 识别 :9,924881 生成 :6.613262 做 诈 ;9.9136093 机 器 ;9.012077 学 习 :0.610518 结构 :6.010349 艺 片 :9.016616 信号 :9.8998791 
预报 :9.044148 模式 :9.028888 模型 :0,016811 学 习 :0.014266 跌落 :9.013213 知识 :9.012345 构建 :9.012014 效果 :9.011600 关系 :9.011276 事故 :9.911270 
效应 :8.025577 经 传 :9.922538 预测 :9.916974 体质 :9.912698 材料 :8.012029 dna:6.010388 数据 :9.919226 研究 :0.999556 基因 组 :0.009556 层次 :9.999195 
实体 :9.000239 语义 :0.000239 关系 :0,000239 分 类 ;0,000239 研究 :9,000239 目的 :0.000239 意义 :90,000239 信息 ;9.000239 抽取 :6,006239 结构 化 :9,000239 


图 3 LDA2vec 主题 识别 结果 


3.3 基于 LDA2vec 的 主题 可 视 化 

利用 pyLDAvis 工具 包 对 主题 识别 的 结果 进 
视 化 展示 ,能 够 更 加 直观 地 对 热点 主题 结 
和 分 析 , 可 视 化 结果 见 图 4。 

基于 pyLDAvis 工具 的 可 视 化 界面 分 为 了 两 个 部 
分 ,页 面 左 侧 对 识别 出 的 所 有 主题 进行 可 视 化 展示 ,以 
图 形 大 小 代表 主题 出 现 概 率 大 小 、 以 图 形 之 间 位 置 关 
系 表明 不 同 主题 之 间 远 近 关 系 ;页 面 右 侧 是 对 所 有 主 
题词 概率 的 可 视 化 展示 , 浅 色 条 块 表 示 该 主题 词 一 共 
b 现 的 频率 ,当选 中 左 侧 某 主题 后 ,会 在 浅 色 基础 上 将 


行 可 
进行 观察 


> 


某 一 主题 下 该 主题 词 出 现 的 频率 标 深 。 
基于 该 可 视 化 图 形 ,能 够 更 加 清楚 地 探析 热点 主 
题 ,突出 主题 主题 之 间 关 系 等 内 容 。 从 图 中 结果 可 
以 看 出 ,识别 出 的 第 一 至 四 主题 在 所 有 文献 中 占 比 
为 绝 大 多 数 ,观察 topic0 -3 的 特征 词 ,可 将 其 归纳 为 
“算法 与 方法 “文本 分 类 ”特征 检测 ”与 “数据 分 
析 ”, 其 中 对 于 机 器 学 习 相 关 算法 与 方法 的 研究 在 机 
器 学 习 领 域 中 占 绝 对 地 位 ,与 其 他 几 个 主题 也 有 所 
关联 。 第 一 象限 中 8 个 主题 "医疗 应 用 “预测 分 析 ” 
“图 像 “ 教 学 应 用 “机 械 应 用 “通信 与 信号 ”预警 
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系统 ” 应 用 ”与 “语义 ” 占 比 虽然 不 多 ,与 前 4 个 
ese 但 彼此 之 间 关 联 与 重合 较 多 , 可见 机 
器 学 习 在 不 同 领域 的 应 用 是 相互 可 以 借鉴 .关系 非 
常 紧密 的 。 

即 从 以 上 两 方面 的 可 视 化 结果 来 看 , 基于 


Selected Topic: 0 


Previcus Topic 
Intertopic Distance Map (via multidimensional scaling) 


.©@ 


Marginal topic cistrioution 


202304.00316v1 


3. 引 ;实验 对 比 评价 
ses(C. EE. Moody 人 在 其 研究 中 以 Hacker News 网 站 
的 识 论 数据 和 一 个 文本 分 类 聚 类 经 典 数据 集 Twenty 
NEsroups 为 实验 数据 ,主要 对 LDA2vec 模型 进行 可 
行 性 验证 ,展示 模型 识别 结果 ,对 其 中 一 小 部 分 结果 计 
算 铺 主题 一 致 性 ,但 并 未 就 模型 性 能 与 传统 模型 进行 
比较 。 本 次 实验 将 从 两 个 方面 对 实验 结果 进行 对 比 与 
评价 分 析 , 验 证 本 文 方法 的 可 行 性 与 有 效 性 。 一 方面 
基于 一 个 广泛 使 用 的 评价 指标 一 一 困惑 度 进行 评价 ， 
困惑 度 可 以 理解 为 对 于 一 篇 文章 d, 所 训练 出 来 的 模 
型 对 文档 d 属于 哪个 主题 有 多 不 确定 ,这 个 不 确定 程 
度 就 是 困惑 度 。 困 惑 度 越 低 , 说 明 聚 类 的 效果 越 好 。 
另 一 方面 ,基于 主题 一 致 性 (Topic Coherence ) 指标 进 
行 评价 ,通过 对 识别 到 的 主题 下 的 特征 词 之 间 的 相似 
性 关系 进行 量化 评价 ,这 一 指标 可 以 反映 出 识别 的 主 
题 中 哪些 是 可 用 的 、 有 价值 的 。 
3.4.1 es 

在 信息 论 中 ,困惑 度 是 用 来 对 概率 模型 预测 样本 
好 坏 程度 进行 衡量 的 一 个 重要 指标 。 在 自然 语言 处 理 
中 ,一 个 语言 概率 模型 可 以 看 成 是 在 整 过 句子 或 者 文 


图 4 LDA2vec 主题 识别 


LDA2vec 模型 提取 的 主题 是 内 容 充 实 的 ,主题 之 间 的 
关系 是 比较 清晰 分 明 的 ,没有 过 多 的 出 现 重 三 .交叉 等 
现象 。 且 利用 pyLDAvis 工具 能 够 很 方便 地 对 识别 出 
的 主题 进行 关系 、 内 涵 、 意 义 上 的 深入 探索 和 分 析 , 这 
对 于 科研 工作 者 来 说 是 大 有 神 益 的 。 


Shde to adjust relevance metric: 人 2 
A=1 00 02 04 08 08 10 


Top-30 Most Relevant Terms for Topic 4 (11.4% of tokens) 
o 50 100 15%0 200 250 300 350 


Overall lerm trequency 
国 Estimaed term frequeney within the selected topic 
1. suiencyllerm w) = frequency(w) * [sum_t pt | w) * logtplt | wyip(i)) tor topics t; see Chuang et al (2012) 
2. relevancellerm w | Wopic t) =A* plw 1 0 + 人 -入 * plw | 1piW); se Siever 8 Shirlay (2014) 


结果 可 视 化 


段 上 的 概率 分 布 ,其 基本 思想 是 给 测试 集 的 句子 赋予 
较 高 概率 值 的 语言 模型 较 好 。 其 公 式 如 下 : 


P(WIM)=1 (二 加 Se 
Slog p(—IM 

FN 公式 (5) 

由 公式 可 知 ,困惑 度 越 小 ,句子 概率 越 大 ,语言 模 
型 效果 越 好 。 

对 同样 的 数据 分 别 进行 LDA 模型 和 LDA2vec 模 


型 的 训练 ,基于 Pyhton 利用 sklearn 包 中 的 lda_perplex- 
ity 函数 ,分 别 计算 两 种 模型 的 困惑 度 值 。 并 将 主题 数 
目的 range 设置 为 [1,100] ,间隔 为 5, 计 算 并 绘制 当主 
题 数目 从 1 至 100 变化 的 过 程 中 ,两 种 模型 困惑 度 的 变 
化 情况 对 比 图 。 主 题 数 目 取 值 在 1 至 100 间 LDA 主题 
模型 和 本 实验 采用 模型 的 困惑 度 值 分 布 曲线 , 见 图 5。 
由 图 5 可 以 看 出 ,其 中 新 模型 的 曲线 一 定 范围 内 
在 LDA 主题 模型 的 下 方 显示 ,尤其 是 主题 数目 K< = 
40 的 情况 下 。 这 也 是 符合 大 多 数 情况 下 进行 科研 主 
题 识别 时 的 需求 ,因为 对 某 一 学 科 领 域 进 行 科 研 热 点 
识别 ,期 望 达到 的 目的 就 是 将 大 量 的 文档 进行 有 限 、 有 
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表 惠 讲 ， 邵 波 . 多 源 数据 环境 下 科研 热点 识别 方法 研究 [J]. 图 书 情报 工作 ,2020,64(5):78 -88. 
S0000 表 3 LDA 热点 主题 识别 及 归纳 结果 
时 200 000 主题 题记 
和 ao 各: 模型 预测 风险 学 习 机 器 基于 数据 患者 临床 方法 
i 抽 : 对 抗 样本 电网 网 页 蜂 群 代理 声音 攻击 描述 符 含量 
EE oe 把 ; 数据 模型 方法 滤波 报告 运动 以 及 pi3k 糖尿 病 研究 
- 反 : 方法 学 习 算法 模型 预测 基于 机 器 进行 检测 分 类 
| 16 21 26 31 36 41 46 51 56 6]1 66 71 76 81 86 91 96 乓 : 学 习 机 器 研究 数据 深度 算法 进行 应 用 方法 基于 
# of topics 的 ; 分 类 基于 方法 文本 数据 学 习 进行 算法 情感 信息 
i Ms #6: 模型 算法 学 习 预测 机 器 研究 信息 诊断 方法 航班 
5 LDA 与 LDA2vec 模型 困惑 度 比 较 殷 ; 预报 神经 网 络 模型 异 音 效果 模式 质量 芯片 基于 
扫 ; 故障 特征 进行 船舶 网 络 android 应 用 学 习 识别 基于 
效 的 主题 分 类 ,才能 更 方便 地 为 后 续 科 学 研究 提供 支 多 :算法 预测 设备 学 习 机 器 数据 聚 类 图 像 分 割 研究 
持 与 帮助 ,所 以 过 于 多 的 主题 数量 也 是 并 不 符合 我 们 吉 0: ”商品 效应 循 经 传导 哈 希 web 影响 销量 品牌 机 器 人 
的 需求 。 由 于 困惑 值 越 大 ,模型 对 样本 数据 的 分 类 效 吉 1: ”环境 图 书馆 预报 商业 银行 客户 识别 城市 划分 操作 


果 越 差 , 反 之 模型 分 类 效果 越 好 . 泛 化 能 力也 越 强 。 所 
以 在 一 定 范围 内 ,本 实验 所 采用 的 模型 对 于 进行 科研 
热岛 识别 来 说 是 更 加 合适 的 。 
ey 主题 一 致 性 

加 语料库 分 别 在 LDA 与 LDA2vec 算法 下 进行 系列 
壬 只 ,识别 出 相同 数目 的 热点 主题 及 主题 下 top10 的 特 
襄 。 基 于 LDA 模型 与 LDA2vec 模型 的 热点 主题 识 
果 分 别 如 下 表 2 和 表 3 所 示 : 
CN 表 2 LDA2vec 热点 主题 识别 及 归纳 结果 
主题 词 top10 
学 习 机 器 研究 数据 技术 方法 分 析 算法 领域 发 展 
模型 预测 算法 学 习 机 器 方法 分 类 数据 特征 回归 
算法 特征 方法 分 类 学 习 检测 数据 机 器 样本 提出 
分析 人 工 智 能 发 展 技术 智能 系统 学 习 分 析 领域 机 器 计算 
应 用 “人 工 智能 发 展 技术 数据 研究 经 济 决策 风险 规划 城市 


互 


蝴 玉 分析 数据 系统 分 析 用 户 技术 预警 机 器 网 络 平台 故障 
as 诊断 模型 临床 患者 预测 学 习 方法 分 析 机 器 影像 
预测 分 析 预测 变量 算法 土壤 研究 机 器 模型 利用 信息 学 习 
下 像 样本 对 抗 分 类 研究 特征 方法 图 像 影像 学 习 遥感 
教学 应 用 。 数据 课程 教学 学 习 学 生 专业 企业 创新 培养 人 工 智能 
机 械 应 用 ”系统 测试 算法 船舶 环境 机 器 路 径 学 习 跟踪 运行 
通信 与 信号 ”网络 神经 识别 生成 欺诈 机 器 学 习 结构 芯片 信号 
预警 系统 ”预报 模式 模型 学 习 跌落 知识 构建 效果 关系 事故 
基因 应 用 ”效应 经 传 预测 体质 材料 dna 数据 研究 基因 组 层次 
语义 实体 语义 关系 分 类 研究 目的 意义 信息 抽取 结构 化 


初步 观察 来 看 ,上 示 两 个 表格 的 主题 词 结果 ,可 以 
较为 直观 地 发 现 基于 LDA2vec 模型 识别 的 主题 词 可 理 
解 性 更 高 。 

3.3 小 节 中 基于 pyLDAvis 的 可 视 化 效果 的 好 处 是 
在 于 可 以 看 出 各 个 主题 各 自 包含 的 词 数 以 及 它们 之 间 
距离 的 远近 ,使 聚 类 效果 更 具有 可 解释 性 ;缺点 是 无 法 
用 数值 给 出 具体 好 坏 。 而 基于 topic coherence 方法 的 


#12: 数据 视频 机 器 研究 技术 学 习 生成 目标 监控 利 
#13: 人 工 智 能 技术 发 展 应 用 学 习 数据 分 析 智能 研究 机 器 
#14: 诊疗 算法 变量 平台 路 径 结果 映射 跟踪 船舶 医疗 


优点 在 于 用 具体 数值 的 方法 定量 地 给 出 模型 的 效果 好 
坏 化 。 所 以 为 了 进一步 验证 ,笔者 利用 前 文 提 到 的 “ 主 
题 一 致 性 ”作为 评价 指标 。 由 于 人 们 对 于 主题 模型 的 
理解 更 倾向 于 属于 同一 主题 的 单词 在 语料库 中 共同 出 
现 的 频率 , 主题 一 致 性 度量 通过 测量 主题 中 高 得 分 词 
之 间 的 语义 相似 度 来 对 单个 主题 进行 评分 ,所 以 基于 
该 指标 的 测量 有 助 于 区 分 可 解释 主题 的 主题 和 统计 推 
断 的 主题 。 

gensim 0.13.1 版 提供 了 几 种 不 同 的 计算 方法 , 包 
括 C_UCI、U-Mass 等 ,这 些 计算 方式 主要 的 不 同 在 于 
“ 共 现 ”的 定义 不 同 。 

UCI 的 计算 公式 为 : 


廿 


,Wy) + e 从 
plw) p(w,) 

它 通 过 在 外 部 语料库 (如 维基 百科 中 文 语料库 
等 ) 上 的 滑动 窗口 中 计算 单词 共 现 频率 来 计算 单词 概 
率 。 在 某 种 程度 上 ,该 度量 可 以 被 认为 是 对 已 知 语义 
评估 的 外 部 比较 。U-Mass 的 度量 标准 定义 基于 文档 
共 现 的 分 数 : 


score(w;,w;, € ) =]o 


D(w;,w;) + e 


和 


Be 公式 (7) 

其 中 ,D(x,y) 计 算 包 含 单词 x 和 y 的 文档 数量 ,D 
(x) 计 算 包 含 x 的 文档 数量 。U-Mass 指标 计算 了 用 于 
训练 主题 模型 的 原始 语料库 的 计数 ,而 不 是 外 部 语 料 
库 。 该 指标 本 质 上 更 具 内 在 性 。 所 以 对 于 我 们 的 评 
估 , 笔 者 决定 采用 U-Mass 方法 对 主题 一 致 性 进行 测 
量 , 且 这 个 评测 措施 已 被 证 明 与 人 工 对 主题 质量 的 关 
断 更 加 匹配。 


score(w;,w,, € ) =log 
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利用 这 一 评价 标准 ,对 划分 主题 下 内 容 的 关联 关系 
进行 定量 的 体现 。 分 别 选取 两 个 模型 输出 的 15 个 主题 
下 的 特征 词汇 ,利用 U-mass coherence 函数 对 这 些 词 的 
主题 关联 度 进 行 计算 ,分 别 得 到 的 结果 如 表 4 所 示 : 
表 4 LDA2vec 与 LDA 主题 一 致 性 结果 对 比 


LDA2vec LDA 
# of topic topic coherence # of topic topic coherence 
0 0.679 0 0.712 
1 0.729 1 0. 675 
2 0. 668 2 0.472 
3 0.678 3 0.615 
4 0.687 4 0.574 
5 0.612 5 0. 645 
0.512 6 0.479 
0.785 7 0.598 
0.798 8 0.772 
0. 625 9 0.712 
0. 645 10 0.723 
0.675 11 0.612 
0.713 12 0. 623 
0.425 13 0. 624 
0. 564 14 0.691 
0. 653 average 0. 635 


取 并 理解 多 源 数据 ,是 很 多 工作 的 基础 与 前 提 。 

本 文 的 创新 性 在 于 :一 是 对 多 源 数据 融合 的 应 用 
场景 进行 了 探索 。 图 书 情报 领域 内 对 于 多 源 数据 融合 
的 研究 目前 较 多 的 是 化 柏林 等 ”学 者 的 探索 ,更 多 
的 是 从 宏观 层面 上 来 看 图 情 领域 内 多 源 数 据 融 合 的 意 
义 与 方法 ,但 从 实际 如 何 应 用 多 源 数据 来 看 ,缺乏 从 实 
际 应 用 场景 .应 用 方案 和 具体 技术 实现 的 细节 进行 深 
入 的 探讨 与 分 析 , 而 本 文 的 研究 提供 了 一 种 思路 。 如 
前 所 述 ,不 同 源 的 科技 文本 对 于 科学 研究 的 贡献 度 、 贡 
献 方向 是 不 同 的 ,有 的 偏重 于 理论 的 研究 ,有 的 偏重 于 
方法 与 技术 的 实现 ,有 的 偏重 于 领域 前 沿 的 探索 等 。 
所 以 本 文 的 创新 点 之 一 是 将 把 多 源 文本 进行 融合 , 作 
为 科研 热点 主题 识别 的 对 象 ,并 研究 具体 实现 方法 与 
技术 细节 。 本 研究 实验 中 选取 了 两 种 不 同 的 数据 
源 一 一 期 刊 论文 数据 和 专利 文献 数据 ,以 达到 针对 某 
一 学 科 领 域 进行 科研 热点 主题 识别 时 ,能 初步 将 理论 
与 实践 相 结 合 。 二 是 对 LDA2Vec 主题 模型 的 应 用 场 
景 进行 了 探索 验证 。 目 前 来 说 ,科研 主题 热点 识别 领 
域内 ,相对 来 说 更 多 使 用 的 是 传统 的 LDA 主题 模型 ， 
也 不 乏 一 些 对 于 LDA 主题 模型 的 优化 与 改善 ,而 现 有 
的 基于 LDA2Vec 模型 的 研究 更 多 的 是 应 用 于 新 闻 推 
荐 与 情感 倾向 性 分 析 中 ,本 研究 创新 性 的 将 此 模型 应 
用 于 图 情 学 科 中 ,并 提出 应 用 于 科研 热点 主题 识别 的 
具体 实现 方法 , 某 种 意义 上 拓展 了 模型 的 实际 应 用 性 。 


Se 


Wf 身 基于 LDA2vec 模型 的 topic coherence 值 是 略 高 于 
传统 LDA 模型 的 ,经 统计 计算 得 出 的 平均 值 0. 653 也 
略 天 于 LDA 模型 的 平均 值 0.635。 因 此 ,从 基于 topic 
cafence 的 定量 验证 来 说 , 某 一 主题 下 主题 词 的 内 部 
关联 度 也 更 高 ,可 以 更 加 容易 地 对 其 进行 理解 与 归纳 ， 
从 而 得 到 大 致 的 主题 名 称 ,这 为 科研 工作 者 进行 下 一 
步 的 科研 创新 工作 提供 了 更 高 的 便利 性 。 

综 上 所 述 ,本 文中 采用 的 基于 LDA2vec 的 模型 的 
科研 热点 识别 方法 在 改善 传统 识别 方法 对 文本 隐 含 语 
义 表达 的 缺失 基础 上 ,不 仅 在 一 定 程度 上 提高 了 主题 
识别 的 精确 性 ,还 具备 较 好 的 模型 泛 化 能 


4 总 结 
4.1 结论 


期 刊 论文 .专利 文献 .政策 文本 .基金 项 目 数据 等 ， 
这 些 内 容 都 是 影响 科研 热点 识别 分 析 结 果 的 因素 ,不 
同 源 的 文本 能 够 从 不 同 的 角度 反映 关于 特定 学 科 领 域 
的 研究 状态 。 而 在 数据 时 代 , 能 和 否 快速 准确 的 高 效 获 


总 结 来 说 ,笔者 提出 的 基于 LDA2vec 模型 的 科研 
热点 识别 方法 ,在 主题 提取 上 的 效果 上 有 相对 程度 的 
提升 。 本 研究 的 模型 困惑 值 在 大 部 分 范围 内 低 于 传统 
LDA 模型 的 结果 , 泛 化 能 力 更 强 ; 且 某 一 主题 下 主题 词 
的 内 部 关联 度 也 更 高 ,所 以 可 以 更 加 容易 对 其 进行 归 
纳 、 得 到 大 致 的 主题 名 称 ,为 科研 工作 者 的 研究 提供 了 
更 多 的 便利 性 。 

从 整体 来 说 ,本 文 提出 的 模型 与 传统 LDA 模型 相 
比 ,继承 了 传统 LDA 算法 和 Word2vec 词 聚 类 算法 优 
点 ,对 于 主题 研究 具有 一 定 参 考 价 值 ; 且 面 对 多 源 文 本 
的 环境 下 ,该 方法 也 能 够 有 较为 不 错 的 表现 。 通 过 本 
文 的 研究 ,更 好 地 将 LDA2vee 主题 模型 方法 引入 图 情 
学 科 中 来 ,基于 科研 热点 识别 这 一 应 用 领域 ,快速 准确 
地 识别 蕴含 在 多 源 文本 中 的 热点 主题 ,为 科研 创新 提 
供 支撑 服务 。 

4.2 研究 局 限 性 
一 是 在 实验 数据 源 选取 方面 。 本 文 的 核心 研究 内 
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表 惠 衣 ， 邵 波 . 多 源 数据 环境 下 科研 热点 识别 方法 研究 [J]. 图 书 情报 工作 ,2020,64(5):78 -88. 


容 是 面 对 多 源 文本 时 的 主题 识别 。 但 是 本 研究 目前 只 
选取 了 两 种 数据 源 一 期 刊 论文 数据 和 专利 文献 数据 
进行 融合 分 析 , 对 于 其 他 种 类 来源 的 数据 暂 未 涉及 ， 
还 未 能 探讨 多 种 不 同类 型 的 数据 源 对 于 实验 结果 的 影 
响 。 

二 是 本 研究 的 数据 获取 和 处 理 方面 。 由 于 获取 全 
文 过 于 庞大 ,本 研究 中 面 对 的 主要 是 两 种 数据 源 一 
期 刊 论文 和 专利 文献 的 题名 与 摘要 内 容 。 也 因此 ,本 
研究 中 对 于 这 两 种 数据 的 融合 借助 了 科技 文献 数据 库 
本 身 对 于 题名 和 摘要 的 标 引 功能 , 且 这 两 种 文献 的 功 
能 结构 是 相似 .完整 的 , 即 本 研究 的 数据 基础 是 同 构 
的 。 如 果 面 对 的 是 异 质 . 异 构 的 数据 源 时 ,本 文 前 期 的 
数据 获取 和 处 理工 作 需 要 再 进行 深层 次 的 探索 。 
之 综 上 所 述 , 科 研 热点 的 识别 对 于 科研 工作 来 说 意 
这 竺 凡 , 笔 者 进行 了 一 些 方法 .应 用 上 的 探索 ,但 未 来 
还 荐 针对 更 复杂 的 多 源 数据 更 高 效 的 识别 效果 上 更 
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Research on Identification Methods of Scientific Research Hotspots Under Multi-source Data 
Qiu Huilin Shao Bo ” 
!' School of Information Management, Nanjing University, Nanjing 210046 
“Nanjing University Library, Nanjing 210046 
Absiract: | Purpose/significance | In scientific research, identifying mining scientific research hotspots from 
different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It 
aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed 
in this study, and provide support services for scientific research innovation. | Method/process | This paper pro- 
posed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for 
Saientific research hotspot identification. This method combined the advantages of LDA topic model on implicit se- 
(Mintic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine 
Goming as an example, the model extraction degree (perplexity ) and topic coherence (topic coherence ) were used 
GO) compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text. | Result conclu- 
可 on | After experiments, the results show that the method proposed in this paper is feasible and can be improved to 
e extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content 
GDthe multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and 
ich the practical application of the multi-data source fusion theory system. 
CY Keywords: topic model LDA2vec research hotspot LDA word2vec multisource data fusion 
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; IFLA WLIC 2020 信息 素养 专题 会 议 征文 | 
(三 1 人 : 
; IFLA WLIC 2020 将 于 2020 年 8 月 15 日 至 22 日 在 爱尔兰 都 柏林 举行 ,期 间 信息 素养 分 会 和 学 校 图 书馆 分 会 (The IFLA Itor ! 
; mation Literacy Section and the School Libraries Section ) 共同 主办 的 公开 会 议 。 会 议 主题 :“ 信 息 素 养 教育 在 促进 学 习 者 在 整个 正规 《 
: 教育 过 程 中 平稳 过 渡 的 作用 ”。 | 
; 信息 素质 教育 贯穿 于 学 习 者 从 小 到 大 及 以 后 的 各 个 阶段 ,图 书馆 员 如 何 建立 伙伴 关系 ,以 使 学 习 者 的 信息 素养 教育 在 任何 地 ‘ 
: 方 都 能 进行 ”该 小 组 会 议 将 讨论 公共 图 书馆 ,学术 图 书馆 和 学 校 图 书馆 如 何 通过 基于 课程 的 信息 素养 教育 ,共同 提高 学 习 者 的 信 | 
息 素养 技能 。 

: 。 会 议 对 探讨 以 下 问题 的 论文 特别 感 兴趣 ; | 
。 具体 技能 框架 ,包括 调查 过 程 和 芽 技 能 ,使 正规 教育 内 部 和 外 部 的 平稳 过 渡 成 为 可 能 ; 人 
] 。 图 书馆 员 ( 公 共 .学校 , 学 术 ) 与 其 机 构 之 间 的 合作 ; | 
1 。 图 书馆 在 信息 技术 教学 中 的 合作 ; 

| 。 从 小 学 到 中 学 的 过 渡 , 最 好 是 从 小 学 和 中 学 的 角度; 
: 。 从 中 学 过 渡 到 正规 教育 ( 即 过 渡 到 校外 生活 ); | 
| 从 中 学 到 大 学 的 过 滤 ; : 
] 。 在 “中间 " 地 区 (如 从 工作 人 员 到 学 院 , 从 学 院 到 工作 人 员 、 从 年 级 到 年 级 过 渡 等 ) 教 授 工 技能 。 《 
， 2、 征 稿 时 间 人 
: 2020 年 4 月 2 日 :提案 提交 截止 日 期 | 
2020 年 4 月 30 日 :作者 接受 状态 通知 人 
: 2020 年 5 月 31 日 :全文 提 交 截 止 日 期 
; 征文 详情 参见 会 议 网 址 : https://2020. ifla. org/ cfp-calls/information-literacy-joint-with-school-libraries/ 《 
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